Lista de Produtos de IA

Lista de Produtos de IA

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2024-12-12 08:39:55.AIbase

P-MMEval: Conjunto de testes de código aberto para avaliação de modelos de linguagem multilíngues, desenvolvido em conjunto pela Tongyi Qianwen e pela comunidade ModelScope

A Alibaba DAMO Academy, em parceria com a comunidade ModelScope, anunciou recentemente o lançamento de um novo conjunto de testes de referência multilíngue de código aberto, o P-MMEval, projetado para avaliar abrangentemente a capacidade multilíngue dos modelos de linguagem de grande porte (LLMs) e realizar uma análise comparativa de sua capacidade de transferência entre idiomas. Este conjunto de testes abrange conjuntos de dados eficientes de capacidades básicas e especializadas, garantindo a consistência da cobertura multilíngue em todos os conjuntos de dados selecionados e fornecendo amostras paralelas em várias línguas. Ele suporta até 10 idiomas de 8 famílias linguísticas diferentes, incluindo inglês, chinês e árabe.

P-MMEval: Conjunto de testes de código aberto para avaliação de modelos de linguagem multilíngues, desenvolvido em conjunto pela Tongyi Qianwen e pela comunidade ModelScope

2024-12-05 14:45:53.AIbase

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

Em 5 de dezembro, a equipe de modelos de linguagem grandes do ByteDance Doubao lançou o mais recente benchmark de avaliação de modelos de código grandes - FullStack Bench, abrangendo mais de 11 categorias de cenários reais, suportando 16 linguagens de programação e contendo 3374 problemas. Em comparação com os padrões de avaliação anteriores, este benchmark pode avaliar com mais precisão a capacidade de desenvolvimento de código de modelos grandes em uma gama mais ampla de campos de programação, promovendo a otimização de modelos em tarefas de programação do mundo real. Os benchmarks de código principais atuais, como HumanEval e MBPP, geralmente se concentram em fundamentos e níveis avançados

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

2024-09-05 08:43:35.AIbase

O Instituto de Inteligência Artificial de Pequim (BAAI) lança o FlagEval: Arena de Batalha para Grandes Modelos, incluindo avaliação de modelos de vídeo gerados por texto

Em 4 de setembro de 2024, o Instituto de Inteligência Artificial de Pequim (BAAI) anunciou o lançamento do FlagEval, o primeiro serviço mundial de avaliação comparativa de modelos que inclui modelos de vídeo gerados por texto. Este serviço está aberto aos usuários, abrangendo cerca de 40 grandes modelos nacionais e internacionais, e suporta avaliação personalizada online ou offline em quatro tarefas principais: perguntas e respostas em linguagem natural, compreensão de imagens e textos multimodais, geração de imagens a partir de texto e geração de vídeos a partir de texto.

O Instituto de Inteligência Artificial de Pequim (BAAI) lança o FlagEval: Arena de Batalha para Grandes Modelos, incluindo avaliação de modelos de vídeo gerados por texto

2024-03-07 03:52:56.AIbase

Empresa de avaliação de modelos de IA destaca problemas graves de violação de direitos autorais do GPT-4; engenheiros da Microsoft temem a função de geração de imagens

A 'Patronus AI lançou uma ferramenta de detecção de direitos autorais'; 'O GPT-4 da OpenAI foi apontado como o que apresenta os problemas mais graves de violação de direitos autorais'; 'Engenheiros da Microsoft apontam que ferramentas de geração de imagens de IA podem representar um perigo para a sociedade'

2023-11-02 15:21:41.AIbase

Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps

O Grupo Ant Financial, em conjunto com a Universidade de Pequim, lançou um benchmark de avaliação de modelos de linguagem grandes para a área de DevOps. O benchmark inclui questões de múltipla escolha em 8 categorias: planejamento, codificação, construção, teste e lançamento, entre outras. São 4850 questões no total. O benchmark também faz uma subdivisão para tarefas AIOps. Os resultados da avaliação mostram que as pontuações dos modelos são bastante próximas.

2023-09-25 09:54:21.AIbase

Investigação sobre a desordem na avaliação de modelos grandes: o tamanho do parâmetro não é tudo

A quantidade de parâmetros não é o único critério para avaliar grandes modelos; diferentes conjuntos de avaliação levam a grandes diferenças na classificação; o aumento da proporção de questões subjetivas também afeta a classificação; a imparcialidade da avaliação é facilmente questionada; Organizações de avaliação de terceiros, como OpenCompass e FlagEval, estão começando a receber atenção; O meio acadêmico acredita que também devem ser considerados a robustez e a segurança do modelo, entre outras dimensões; Um método de avaliação verdadeiramente abrangente e eficaz ainda está em exploração.

2023-08-18 10:04:45.AIbase

A startup de IA Arthur lança o Bench, uma ferramenta de avaliação de modelos de IA de código aberto

A Arthur lançou o ArthurBench, uma ferramenta de código aberto para avaliar e comparar o desempenho de modelos de linguagem grandes. O ArthurBench ajuda as empresas a testar o desempenho de diferentes modelos de linguagem em casos de uso específicos, fornecendo métricas de comparação, como precisão, legibilidade e segurança. Empresas de serviços financeiros, fabricantes de veículos e plataformas de mídia já estão usando o ArthurBench para acelerar a análise e fornecer respostas mais precisas.